Utilisation du machine learning pour la prédiction du risque de noyade sur le littoral girondin

Exposé TWIX | UR ETTIS

David CARAYON, Jeoffrey DEHEZ

16/03/2023

Introduction

Contexte régional

La noyade : un problème de santé publique

  • Une des côtes les plus dangereuses au monde (Castelle et al. 2018)
  • 20 à 30 morts par an
  • Des milliers de sauvetages chaque été
  • \(\approx\) 50% de la population qui va à la plage
  • La moitié se baigne hors de la surveillance (Dehez and Lyser 2021)

Travaux antérieurs

Travaux exploratoires

Prédiction du risque noyade

  • Premier travaux portés par CHU Bordeaux
  • Estimer la probabilité d’au moins 1 appel SAMU chaque jour à partir de paramètres météo, océaniques et calendaires
  • Mise en place d’une alerte préfectorale, avec \(\pm\) de succès

Vers un nouveau modèle ?

  • Repartir des données / du modèle de Tellier et al. (2022)

  • Conserver la même philosophie (prédiction journalière, modèle binaire)

  • Mettre à jour avec des données + récentes (et mieux nettoyées)

  • Tenter de nouvelles méthodes statistiques prédictives (ex : RandomForests, xGBoost)

  • Mieux penser la communication

Les données utilisées

Les prédicteurs

  • Origine Météo France, 2015-2022
  • Prédiction à J+3 & aggrégation journalière selon valeur maximale. N = 2651j

Aléas

  • Wave incidence factor : \({cos}_4H = cos((278 - D\_{HOULE}) \times \frac{\pi}{180})^4\)

  • Wave factor : \(HsTp = H_{HOULE} \times P_{HOULE}\)

Exposition

  • \(T_{air}\) : Température de l’air

  • \(day\) : jour (6)

  • \(month\) : mois (7)

  • \(wday\) : jour de la semaine (\(lundi = 1\))

Variable à prédire : la noyade

  • BDD appels SAMU sur 2011-2022 | N = 522

  • Information binaire sur la journée (Noyade / Pas de noyade)

Préparation des variables

  • Transformations : Transformation LOG des distributions non normales, puis normalisation de toutes les variables numériques

  • Corrélations : Conservation d’une seule variable par paire avec r > 0.9

  • SMOTE (Synthetic Minority Oversampling TEchnique) : Génération de nouveaux individus synthétique de la classe minoritaire, très similaires mais non strictement identiques (Chawla et al. 2002)

Note

Le SMOTE n’est utilisé que sur les données d’entraînement, et non sur les données de validation et de test.

Méthodes statistiques

Démystifions le machine learning…

Ceci est du machine learning :

Techniques utilisées

Random Forests

3 Hyperparamètres (manuels) : nombre d’arbres, nombre minimal de variables insérées à chaque arbre, profondeur minimale d’une branche.

XGBoost

4 Hyperparamètres : Les mêmes que Random Forest + un taux d’apprentissage

Approche modélisatrice

  • Séparation en train, test et validation

  • Validation croisée (cross-validation) par 10 folds

Ajustement des modèles

1. Recherche des hyperparamètres

  • Définition d’une grille avec 12 combinaisons d’hyperparamètres.
mtry trees min_n tree_depth learn_rate
1 779 16 3 0.0381008
2 1640 29 15 0.0111921
3 929 14 11 0.0019834
3 593 24 13 0.0581914
3 172 37 7 0.1671812

Ces combinaisons sont obtenues par Latin Hypercube Sampling (Sacks et al. 1989), qui échantillonne de manière homogène à l’intérieur de l’intervalle des valeurs possibles de chaque paramètre.

Ajustement des modèles

2. Evaluation

  • Entraînement puis test (et évaluation) du modèle sur chacun des 10 folds. Obtention moyenne et écart-type des métriques sélectionnées (AUC, accuracy, etc.)

Quelle métrique optimiser ?

Résultats et discussions

Discrétisation du risque en classes

La probabilité prédite est une valeur \([0,1]\). En raisonnement binaire, un accident est prédit lorsque \(P_{accident} \geq 0.5\)

Il est possible de gagner en précision en définissant des niveaux de risque.

Choix : Seuils arbitraires pour 5 classes équipondérées :

\[[-\infty ; 0.2 ; 0.4 ; 0.6 ; 0.8 ; +\infty]\]

Résultats

Modèle optimisé pour le F-score
classe_risque noyade pas_de_noyade
I 1 374
II 16 106
III 24 61
IV 26 38
V 11 6
Modèle optimisé pour l’AUC
classe_risque noyade pas_de_noyade
I 2 398
II 9 66
III 15 50
IV 27 49
V 25 22

Discussion

  • Modeste amélioration par rapport au modèle précédent \(\rightarrow\) Limite du jeu de données ?

  • Données appel SAMU : La variable prédite se rapproche plus d’appel_SAMU que de noyade. On parlerait plutôt d’alerte “Tension Hôpitaux” plutôt que “Noyades Baïnes”

  • Approche envisagée : Focus sur les “mass rescues”, non tracée par les appels SAMU \(\rightarrow\) projet BEACH remontée informatisée des sauvetages sans appel SAMU.

  • Spatialisation de la prédiction ?

  • Communication orale WCDP 2023 : Using machine learning to predict drownings in surf beaches of southwest France

References

Castelle, B., Stéphane Abadie, X. Bertin, E. Chaumillon, Gonéri Le Cozannet, N. Long, Nicolas Rocle, and A. Sottolichio. 2018. Modifications physiques du littoral.” In Anticiper les changements climatiques en Nouvelle-Aquitaine. Pour agir dans les territoires, edited by AcclimaTerra and H. Le Treut, 305–29. Éditions Région Nouvelle-Aquitaine. https://hal-univ-pau.archives-ouvertes.fr/hal-02162380.
Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer. 2002. “SMOTE: Synthetic Minority over-Sampling Technique.” Journal of Artificial Intelligence Research 16 (June): 321–57. https://doi.org/10.1613/jair.953.
Dehez, Jeoffrey, and Sandrine Lyser. 2021. Fréquentation des plages océanes et risques de baignade en Aquitaine en 2020. Une étude exploratoire.” Research Report. INRAE. https://hal.science/hal-03549020.
Sacks, Jerome, William J. Welch, Toby J. Mitchell, and Henry P. Wynn. 1989. “Design and Analysis of Computer Experiments.” Statistical Science 4 (4). https://doi.org/10.1214/ss/1177012413.
Tellier, Éric, Bruno Simonnet, Cédric Gil-Jardiné, Marion Lerouge-Bailhache, Bruno Castelle, and Rachid Salmi. 2022. “Predicting Drowning from Sea and Weather Forecasts: Development and Validation of a Model on Surf Beaches of Southwestern France.” Injury Prevention 28 (1): 16–22. https://doi.org/10.1136/injuryprev-2020-044092.